第二届全国翻译技术大赛系列培训第三期内容小结&牛刀小试
为帮助翻译从业者、爱好者及高校师生进一步了解翻译技术,同时为第二届全国翻译技术大赛参赛者提供备赛参考,中国翻译协会、中国外文局翻译院、北京第二外国语学院于4月起启动第二届全国翻译技术大赛系列培训。
第三期培训邀请百度自然语言处理部高级工程师吴阳、粤港澳大湾区数字经济研究院AI平台技术研究中心AI产品运营负责人谢凯、天津外国语大学高级翻译学院硕士生导师朱华分别以《机器翻译技术演进:大模型时代的探索与应用》《多语言智能翻译与交流平台及机器翻译评测集介绍》《从MTPE到AIPE:ChatGPT时代的译前译后编辑》为题作讲座。内容概要如下:
第三期培训回顾
Part.01
机器翻译技术演进:大模型时代的探索与应用
一、机器翻译技术发展和质量评估
本部分主要介绍了机器翻译的定义,回顾了基于规则的机器翻译、基于统计的机器翻译和神经网络机器翻译三个发展阶段,并分别讲解了各阶段机器翻译的特点、原理及问题,阐述了机器翻译发展面临的挑战。机器翻译质量评估有人工评估和自动评估两种方式,人工评估包含可懂度(Intelligibility)和MQM(Multidimensional Quality Metrics)等评价指标,自动评估包含BLEU(Bilingual Evaluation Understudy)和COMET(Crosslingual Optimized Metric for Evaluation of Translation)等评价指标。
二、大语言模型时代的机器翻译
本部分首先介绍了语言模型的概念与迭代过程。其次对比了神经网络语言模型中循环神经网络(Recurrent Neural Network, RNN)模型和Transformer模型的优劣,指出Transformer模型的计算训练效率更高、可更好处理长距离依赖关系、性能更为优越,但也存在计算复杂度高等劣势。之后阐述了以BERT和GPT为代表的基于Transformer框架的预训练语言模型的特点,指出这类模型正推动自然语言处理进入“预训练+微调”的新时代。最后展示了大语言模型的训练过程、工作原理、获得翻译能力的方式以及基于大语言模型的机器翻译训练范式。此外,还提出大语言模型有产生“幻觉”、知识时效性较差等问题,并指出可以通过检索增强生成(Retrieval-augmented Generation, RAG)等方式缓解上述问题。
三、总结与展望
大语言模型有泛化性强、研发流程标准、翻译效果好等优势,为机器翻译带来深刻变革——基于大模型的机器翻译摆脱了传统模型对大规模双语数据库的依赖,可以深度融合知识,提供更高质量的译文,并实现更加便捷灵活的交互。
Part.02
多语言智能翻译与交流平台及机器翻译评测集介绍
一、多语言智能翻译与交流平台基本情况介绍
本部分阐述了建设以中文为核心、面向“一带一路”的多语言国际交流平台的必要性。基于此,鹏城实验室联合中国外文局等单位开展了多语言模型评测与集成验证和服务平台、低资源多语言文本机器翻译系统以及多语言智能语音处理和同声传译系统的研发和建设工作,推出BRIGHT “一带一路”多语言高精度翻译平台(以下简称“BRIGHT平台”)等研究成果。
二、第二届全国翻译技术大赛机器赛道介绍
第二届全国翻译技术大赛机器赛道平台基于BRIGHT 平台搭建。BRIGHT平台是全球首个以中文为中心的多语言智能翻译与评测平台,支持多个“一带一路”沿线国家语言与中文互译。
在调试和评测数据集方面,机器赛道用于调试/评测的数据资源包含新闻、政治、旅游、日常、医疗、科技等6大领域的68个主题,均经过语言专家审核、严格质量管控和多轮精细校验。数据集中所有中文语料均来自官方媒体,并经过严格筛选,全部真实且可溯源。同时,数据集长短句和难易度分布均匀。
在调试阶段,大赛主办方将为每个参赛语种提供20万句对(中文→外文)的训练数据集。在评测阶段,为每个语言方向提供高质量评测数据集。
在评测方式上,机器翻译引擎评测将综合多维度BLEU值和多维度COMET值等维度进行排名,以确保评测结果公平合理。
Part.03
从MTPE到AIPE:ChatGPT时代的译前译后编辑
一、译前编辑
本部分介绍了译前编辑的定义、常用策略以及相关研究情况,阐述了译前编辑的必要性,并指出通过调整源文本语序及语言风格等译前编辑操作,可以避免译文生涩、不流畅等问题。不过,在源文本质量较高且使用的机器翻译引擎已经过相关垂直领域训练的情况下,译前编辑所能发挥的作用有限。
二、译后编辑
本部分介绍了译后编辑的定义、形式、评价标准、常用策略、常用工具、常见提示词等内容,并展示了如何使用“CAT+MT+ChatGPT”模式进行译后编辑。此外,还分享了译前编辑、译后编辑相关内容的学习资源。
第三期培训练习题
01
以下哪项为大语言模型训练过程的正确顺序?
A. 预训练—指令微调—强化学习—奖励模型
B. 指令微调—预训练—奖励模型—强化学习
C. 预训练—指令微调—奖励模型—强化学习
D. 预训练—奖励模型—强化学习—指令微调
02
以下哪些选项为机器翻译自动评估指标?
A. 可懂度
B. METEOR
C. BLEU
D. COMET
03
在大语言模型训练过程中,哪个阶段需要“使用海量数据训练模型,把知识储存在模型参数中”?
A. 预训练阶段
B. 指令微调阶段
C. 奖励模型阶段
D. 强化学习阶段
04
以下哪些选项是大语言模型存在的问题?
A. 产生“幻觉”
B. 知识时效性较差
C. 没有上下文理解能力
D. 无法深度融合知识
05
以下哪个选项是机器翻译发展阶段的正确顺序?
A. 基于统计的机器翻译—基于规则的机器翻译—神经网络机器翻译
B. 基于规则的机器翻译—基于统计的机器翻译—神经网络机器翻译
C. 基于规则的机器翻译—神经网络机器翻译—基于统计的机器翻译
D. 神经网络机器翻译—基于规则的机器翻译—基于统计的机器翻译
06
以下哪些关于Transformer模型的说法是正确的?
A. Transformer模型是一种基于自注意力机制的序列建模模型。
B. Transformer模型无法进行有效的并行计算。
C. Transformer模型无法处理长距离依赖关系。
D. 与循环神经网络(Recurrent Neural Network, RNN)模型相比,Transformer模型可更好处理长距离依赖关系。
07
以下哪个选项是机器翻译译后编辑的缩写?
A. MTPE
B. MT
C. CAT
D. AIPE
08
以下哪个选项的主要任务是“检查和修正机器翻译的输出译文”?
A. 机器翻译
B. 译后编辑
C. 译前编辑
D. 人工智能译后编辑
09
以下哪个选项不是译前编辑策略?
A. 改写释义:将原文中复杂的句子或表达改写成更简单易懂的形式。
B. 低错纠正:修正原文中明显的语法错误、拼写错误等低级错误。
C. 术语优化:统一原文中不一致的术语,或将术语替换为更常见的表达。
D. 术语干预:检查译文中术语的使用是否一致,并根据术语库进行修正。
10
以下哪些选项不是译后编辑策略?
A. 评估机器翻译的质量
B. 清除原文的复杂格式
C. 调整译文的表达风格
D. 简化原文的句子结构
关注视频号,预约培训直播
第五期培训将在本周六19:00举办,主题为人工智能辅助翻译,欢迎大家预约观看!